#aprendizaje por refuerzo

TrafficClaw: Agente LLM generalizable para control de tráfico urbano

Descubre TrafficClaw, un agente de IA basado en LLM que optimiza el control de tráfico urbano en entornos físicos unificados con aprendizaje por refuerzo.

2026-06-03 · 1 min

MARFT: Ajuste Fino de Refuerzo Multi-Agente

Descubre MARFT, un nuevo marco de ajuste fino por refuerzo multi-agente para optimizar sistemas de agentes LLM. Mejora colaboración y razonamiento.

2026-06-02 · 1 min

Redes neuronales gráficas guiadas por física con pesos dinámicos para RUL y SoH

Descubre cómo RGPD, con redes gráficas y pesos dinámicos, mejora un 12% la precisión en RUL y SoH en motores, rodamientos y baterías.

2026-06-02 · 2 min

TuneAgent: Ajuste de kernel con aprendizaje por refuerzo

Descubre cómo TuneAgent utiliza aprendizaje por refuerzo para ajustar el kernel de Linux, mejorando el rendimiento hasta un 5.6% de forma autónoma y precisa.

2026-06-02 · 2 min

Repensando la evaluación de RL: ¿Los benchmarks revelan sus fallas?

Los benchmarks actuales no revelan las fallas de los métodos de RL en LLMs. Descubre el OPG y principios para evaluar la generalización.

2026-06-02 · 1 min

El razonamiento latente en TRMs es un operador de mejora de política

En TRMs, el razonamiento latente actúa como operador de mejora de política. Con RL y difusión, reducimos 18x los pasos.

2026-06-02 · 2 min

Dilema representación-racionalización en aprendizaje de recompensas

Descubre el dilema entre representación y racionalización en RLHF: cómo el embedding afecta la consistencia de las recompensas y los límites de la optimización.

2026-06-02 · 2 min

DeepLatent: Razonamiento visual latente paralelo con imágenes

DeepLatent: revolucionario marco paralelo de razonamiento visual latente. Usa tokens 2D y RL continuo para alcanzar rendimiento de vanguardia en benchmarks clave.

2026-06-02 · 1 min

Internalizar la temperatura: autodestilación para recalentar políticas en RL

Descubre cómo TS-OPSD recalienta políticas en RL sin profesor externo, restaurando entropía colapsada para mejorar el razonamiento de LLMs.

2026-06-02 · 2 min

Meta-Optimización con Ensambles Adaptativos para Equilibrio Robustez-Precisión

AdaE-SAEA: algoritmo evolutivo con ensambles adaptativos y RL para equilibrar robustez y precisión. Mejora rendimiento en problemas reales.

2026-06-02 · 2 min

Algoritmo óptimo para bandits contextuales lineales con actualizaciones escasas

Descubre un algoritmo práctico y óptimo para bandits contextuales lineales con O(log log T) actualizaciones. Máximo rendimiento con mínima complejidad.

2026-06-02 · 2 min

Supervisión de UAV de ala fija con Q-learning residual y filtro HJB

Nuevo método de aprendizaje por refuerzo reduce error de trayectoria en UAV de ala fija en un 86.77% respecto al autopiloto clásico. Descubre cómo el filtro HJB mejora la supervisión.

2026-06-02 · 2 min

ToMAP: Persuasores LLM con conciencia del oponente

Descubre cómo ToMAP, un modelo de 3B parámetros, supera a GPT-4o en persuasión usando Teoría de la Mente. Aumenta efectividad un 39.4%.

2026-06-02 · 2 min

Reacciona a sorpresas: Control neuronal estable con Youla-REN

El control neuronal Youla-REN garantiza estabilidad por diseño ante imprevistos. Ideal para entrenamiento con horizontes cortos y sistemas inciertos.

2026-06-02 · 2 min

OncoReason: razonamiento clínico en LLMs para predicción de supervivencia

Nuevo marco OncoReason alinea LLMs con razonamiento clínico para predicción de supervivencia robusta e interpretable. Mejora F1 un 6% y reduce MAE un 12%.

2026-06-02 · 2 min

Relación señal-ruido no uniforme en REINFORCE

Descubre cómo la relación señal-ruido no uniforme en el estimador REINFORCE causa inestabilidad y colapso durante el entrenamiento en RL.

2026-06-02 · 2 min

Control regularizado con KL bien planteado vía divergencias Wasserstein y Kalman-Wasserstein

Nuevas divergencias Wasserstein y Kalman-Wasserstein mejoran el control KL, ofreciendo soluciones estables incluso con ruido bajo: doble integrador y cart-pole.

2026-06-02 · 2 min

ForesightKV: Evicción óptima de caché KV en modelos de razonamiento

ForesightKV optimiza la evicción de caché KV en modelos de razonamiento, superando métodos previos con la mitad del presupuesto y aprendizaje combinado.

2026-06-02 · 2 min

NestRL: Régimen de entrenamiento anidado para equipo humano-IA

NestRL optimiza la colaboración humano-IA mediante entrenamiento anidado, logrando mayor adaptabilidad y rendimiento frente a métodos tradicionales en Overcooked.

2026-06-02 · 2 min

MACCA: Aprendizaje por Refuerzo Multiagente Offline con Asignación Causal

Descubre MACCA, un nuevo marco de MARL offline que asigna crédito causal de forma precisa. Mejora el rendimiento en entornos sin interacción.

2026-06-02 · 2 min